如何基于更完善的数据库进行分析?刘长胜、赵屹、张占辉、陈白雪
顾大夫沙龙第一期内容梳理:如何基于更完善的数据库进行分析?
讲者:刘长胜北京卫吉尔生物科技有限公司首席科学家
题目:基于中华基因突变库及NextGENe筛选遗传病家系致病位点
嘉宾发言:
赵 屹 北京中科晶云科技有限公司 董事长
张占辉 北京金准基因科技有限责任公司技术总监
陈白雪 金域医学检验中心临床基因组中心基因诊断应用专家
刘长胜
赵 屹
非常感谢有这个机会跟大家来讨论怎么样基于一个更好的数据库来对遗传病的临床诊断提高准确度,提高效率。事实上,我们从事遗传病+基因检测的整个行业的过程中,我们遇到了几个问题,其实同行基本上都很清楚。
第一,并不是在于测序难,也不在于我们现在的测序准确度较差,其实现在就是数据库确确实实存在很大的问题。国际上的公开数据库集里,包括ClinVar,包括遗传病数据库里,中华人群和东亚人群的数据太少。所以我们今天也有幸听到我们刘长胜博士介绍他们收集的这个数据库,我觉得对我们整个行业是非常有意义的,虽然数据在8000左右,还没有上万,规模虽然不大,但是第一步的迈出是非常重要的。我也知道很多公司其实有这个数据,但是由于各种原因可能或多或少不愿意去公开数据库,但是我们的行业需要,真正为了做准确的报告,我们必须要知道数据库中国的人群的基线,必须有基线突变率数据库。虽然国家的十三五的项目也启动了一些相关的人群队列,但是这个还为时尚早。从队列到数据,恐怕没有三到五年的时间,我们还看不到,但是我们的病人是等不了的。这是我对数据库的第一个理解,是我们对基因数据库本身还缺乏。
第二,这个数据库还包含另外一个信息,就是表型数据库,这方面又有一个很大很大的gap,一个空缺。因为我们现在科研层面上,科研人员往往忽略了这一点,他并不太清楚我们医生去诊断过程中需要的表型是什么,他往往就是在科研过程中希望大量的测序,但是忽略了表型的收集,标准化以及共享,这是数据库的第二个问题。
第三个问题是怎么样从数据库里面,从测序数据里怎么去比对、怎么去产生报告,甚至怎么去分类我们定义好的突变,到底是不是致病的。国际上我们知道ACMG有标准,国内标准没出来。但是ACMG在我们真正实践过程中,确确实实又遇到很多困难,完全按照他的标准诊断要做很多实验,你才能保证你的位点突变,小到一个SNP,大到一个拷贝数变异、结构性变异,它才可能是一个致病的。中间的实验、功能的验证是非常困难的,所以这个指南和我们真正落地的时候,之间又是很大的gap。所以这里需要大家的智慧,也需要我们向更多的企业,包括我们刘博士的企业,包括我们现在有很多在座的,其中我们参与到遗传病的诊断、遗传病的筛查的很多企业去一起努力,把数据库搭建好,包括表型、包括基因数据库搭建好,把所有数据的标准定义好,就是如何去分析流程上的标准定义好,真正地能把这个行业做得更好。这是最终我的希望,谢谢大家!
张占辉
各位老师、各位同道,大家下午好!我是来自金准基因的张占辉。我是一直在基因检测的第一线,做很多的数据分析。我就长话短说,在我们的分析过程中间,我觉得数据库这方面有几点要特别去注意。
在建数据库的时候,我们对于每一个variant要评估它的真实性,所以刘总这边,我是希望尽量地把每个variant的QC flag提出来。就像gnomAD里面,每个variant是不是在low copy repeats、simple repeats或者allele count为0的时候,给我们一些提示。 而且很多时候变异位点,二代测序和一代测序的结果存在不一致。这个我希望在一开始做数据库的时候要给我们一个提醒。
第二点就是人群频率,我们分析人群频率的时候,会用到一个证据就是BS2。BS2的证据是否能使用,我希望中国人的数据应该给一个更好的提示。
另外,对于数据库来说,在我们分析CNV的时候,如果一个基因上面存在的片断的缺失或重复,那么它到底落在了内含子上面,还是在外显子上面。这个也是我们数据库一开始建设的时候要考虑的事情。
还有是我们本地化的一些数据库,能不能做到及时更新,半年或者每一年更新一次。假如我们遇到一个病例,对应的variant我们判断为一个致病变异,然后它就会同步到我们本地数据库里边。我们在以后遇到这个variant的时候,会给我们一个提示,携带相同变异的病例,表型是不是有些相似的地方。这个是我们在做本地化数据库的时候需要考虑的事情。
我特别强调就是,人群频率数据库要有QC的数据,这个很重要,我们分析的时候经常会遇到这个坑。
谢谢!
陈白雪
各位前辈,大家下午好!我是来自金域医学的陈白雪,我在临床基因组中心的分子遗传团队工作了三年。今天我要跟大家讨论的是基于完善数据库进行更好的分析。说到数据库,大家可能首先想到的就是基于计算机构建的数据库,那么这种数据库构建的完善,前面各位前辈已经提到,我在这里不再赘述,我来举一个例子。构建数据库本身对于我们金域来说,是自己构建了一个本地的数据库,我们已经把超过15000例的医学外显子组和全外显子组这些受检者,他们的测序结果,其中有相当一部分人是提供临床表型,而自己构建了一个数据库。那么,我们每新接到了一个样本,他们里面每一个变异的结果都可以跟已有的信息进行比对,我们就可以分辨出这个新来的variant到底是不是同样表型或者是完全相反的表型的这些患者里面重复出现。那么,这种对比的结果有助于我们去判断一个VUS到底是有可能致病,还只是一个普通的良性的变异。
我这里还想强调另外一个数据库,这个数据库就是我们的大脑,也是一个数据库,这个数据库反过来说也是各位的经验。我们所有的计算机构建的数据库也是通过人去推动它进行构建。我自己的经验,对于一个特定的样本来说,它后续该加做什么分析,这是计算机没有办法去完成,至少是目前没有办法完全替代人类的工作,我们在培训新人的时候也会非常强调经验的共享。
我在这里举一个例子,我在2015年刚刚开始工作的时候,遇到一个很棘手的病例,最后找出了一个常染色体隐性遗传病的明确致病突变,以及一个VUS。那个VUS没有任何办法去判断致病性,因为没有任何文献,也没有任何数据库去支持我给它做进一步的判断。而时隔一年多以后,我在另外一个样本中很偶然又发现了,当时不知道怎么突然就想到,一年多以前我见过完全一样的变异,并且两位患者的表型有非常高的相似之处。这就提示了我,这个变异可能今后如果需要做科研,需要跟临床大夫交流,这是一个非常好的切入点。
谢谢!
感谢黄尚志老师、承办方赛福基因、协办方人人实验和测序中国对本次沙龙的大力支持!
嘉宾发言整理:测序中国、顾大夫
测序中国探基平台已经将直播视频整理分段,扫描以下二维码可观看(未注册用户需要先注册后才能观看)
http://tj.seqchina.cn/program/livingRoom/518